查看原文
其他

一文快速 Get Kylin 4.0.0-beta 新功能

Apache Kylin apachekylin 2022-04-23


Apache Kylin 4.0.0-beta 已于上周正式发布了,各位小伙伴们是不是已经开始试用起来啦?为了大家更快上手 Kylin 4.0.0-beta,我们精心准备了这篇功能介绍!更多问题和反馈欢迎大家留言与我们互动哦!


有奖征集性能测试报告见文末哦


先来看看当初大家对 Kylin 4 的期待吧!


接下来,我们一起看看 Kylin 4.0.0-beta 都实现了哪些功能呢?


为了提升用户体验,追平 Kylin 3.0 的原有功能,Kylin 4.0.0-beta 中重新设计并实现了 System Cube、Cube Planner phase1、支持部分高级函数等功能。同时重构了日志系统,对多个主流 Hadoop 版本进行了测试和支持,优化了读写分离部署。


更多详细介绍,快看下文👇



01

支持更多 Hadoop 版本

Kylin 4.0.0-beta 实现了对更多主流 Hadoop2/Haddop3 版本的支持。在发布之前,社区人员已经在 CDH 5.7, CDH 6.2, AWS EMR 5.31, AWS EMR 6.0.0, HDP 2.4 平台对 Kylin 4.0.0-beta 进行了测试,包括安装部署、提交构建任务和执行查询的主要流程。


安装文档请参考:

https://cwiki.apache.org/confluence/display/KYLIN/Installation+Guide

*注意:在 CDH6 和 EMR 环境下,启动 Kylin 之前需要做一些额外的配置,请根据安装文档的步骤进行操作。



02

支持 grouping sets 等高级函数

为了与 Kylin 3 中的查询功能保持同步,Kylin 4.0.0-beta 对 grouping sets、intersect_count、intersect_value 等一系列高级函数进行了实现,并对比了查询结果的一致性和正确性。


详情请查看相关 issue:

https://issues.apache.org/jira/browse/KYLIN-4842

https://issues.apache.org/jira/browse/KYLIN-4843



03

支持 System Cube

System Cube 是一组由 Kylin 创建的用于自我监控的 Cube,从 Kylin 2.3.0 版本开始支持。在 Kylin 3.x 和 Kylin 2.x 中,预计算后的数据存储在 HBase 中,因此 System Cube 收集的查询指标基本上与 HBase RPC 相关;而 Kylin 4 实现了新的构建和查询引擎,HBase 存储被新的 Parquet 存储所取代,原来的查询指标在 Kylin 4 中不再存在。


为了使 System Cube 在 Kylin 4 中能够正常工作,帮助用户监控构建和查询,Kylin 4.0.0-beta 中对 System Cube 进行了重新设计和实现,相应 System Cube 所依赖的三个查询相关的 Hive 表的的结构也发生了改变。


使用文档请参考:

https://cwiki.apache.org/confluence/display/KYLIN/How+to+use+System+Cube+in+Kylin+4



04

支持 Cube Planner 第一阶段

Cube Planner 是从 Kylin 2.3.0 版本开始支持的智能 Cube 剪枝工具,它分为两个阶段,第一个阶段根据 Cuboid 统计信息对 Cube 进行剪枝,第二阶段根据查询情况对 Cuboid 进行进一步剪枝和智能推荐。由于存储和查询引擎的替换,Kylin 4 无法像之前一样收集 Cube Planner 所需要的信息,导致 Cube Planner 功能在 Kylin 4.0.0-alpha 中暂不可用。


为了用户能够继续使用 Cube Planner 对 Cube 进行剪枝优化,Kylin 4.0.0-beta 在构建过程中增加了对 Cuboids 统计信息的计算和收集,从而实现了对 Cube Planner 第一阶段的支持。


使用文档请参考:

https://cwiki.apache.org/confluence/display/KYLIN/How+to+use+Cube+Planner+in+Kylin+4



05

日志系统重构

由于 Kylin 4.0 中采用 Spark 作为构建和查询引擎,所以在构建过程中会有大量 Spark 的日志输出到 Kylin 的日志文件 Kylin.log 中,可能存在 Kylin.log 文件混乱庞杂,不利于排查等问题。


为了更好地解决此问题,Kylin 4.0.0-beta 不再将构建过程中的日志输出到 Kylin.log,而是将构建过程中每个步骤的日志分别输出到 HDFS 指定文件中,并在前端页面提供了日志下载按钮,方便用户本地直接查看构建日志。


使用文档请参考:

https://cwiki.apache.org/confluence/display/KYLIN/Logger+configuration



06

读写分离部署

Kylin 4.0 使用 Spark 进行构建和查询,如果构建任务和查询任务都运行在同一个 Hadoop 集群中,那么构建/查询性能可能会因为资源竞争受到影响。


为了避免这个问题,用户可以选择在两个 Hadoop 集群上分别运行构建任务和查询任务,也就是读写分离部署。Kylin 4.0.0-beta 对读写分离部署进行了更加充分的测试,修复了多个问题,目前可以提供更好的支持。


使用文档请参考:

https://cwiki.apache.org/confluence/display/KYLIN/Read-Write+Separation+Deployment+for+Kylin+4.0



性能测试报告
有奖征集活动来啦!

介绍了这么多功能,你是不是也跃跃欲试了?大家还记得 Kylin 4.0.0-beta 发布新闻中,我们分享的某互联网大厂的性能测试报告吗,Kylin 4 在多个测试场景都有一定的查询性能优势!


广大 Kylin 用户快来测测基于你们的业务场景,是不是也有不错的性能提升呢?本次收集的性能测试报告也会总结并回馈给社区用户,统计结果仅用于改进产品。


你来写报告,我来送奖品!

欢迎大家踊跃参与哦!

质量 Top 5 可获得 Kylin 周边大礼包哦~


👇 提交性能测试报告看👇

扫描二维码|提交性能测试报告问卷

相关问题请邮件:xxyu@apache.org



他们都在用 Apache Kylin


eBay | 腾讯 | 滴滴 | 小米 | 美团 |  百度 | 携程

Strikingly | 斗鱼 |  银联 | 京东 | 思科 | 一点资讯

58集团 | 汽车之家 | 中国移动 | 网易游戏 | 搜狐

满帮集团 | 好买财富 | 特来电 | 4399 | OLX 集团

微医 | 马蜂窝 | 唯品会 | 贝壳 | 麻袋财 | 绿城


点击 阅读原文 下载 Kylin 4.0.0-beta 吧!

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存